数字转型面临着巨大的安全挑战。特别是,越来越多的网络攻击目标互联网(物联网)系统的需要重述可靠地检测恶意网络活动的需求。本文介绍了关于IOT-23数据集的九个恶意软件捕获的监督,无监督和强化学习技术的比较分析,考虑到二进制和多级分类方案。开发的模型包括支持向量机(SVM),极端梯度升压(XGBoost),光梯度升压机(LightGBM),隔离林(IFOREST),本地异常因子(LOF)和基于的深增强学习(DRL)模型双层Q-Network(DDQN),适用于入侵检测上下文。通过LightGBM实现了最佳性能,紧随其后的SVM。尽管如此,IFOREST针对未知攻击显示出良好的结果,DRL模型展示了采用该方法不断改善检测的可能益处。总的来说,所获得的结果表明,分析的技术非常适合于物联网入侵检测。
translated by 谷歌翻译
网络安全已经关注了很长一段时间。在最近几年,网络理念的规模和复杂程度越来越大,通过技术的重大进步推动。如今,保护系统和数据对于业务连续性至关重要的不可避免的必要性。因此,已经创建了许多入侵检测系统,以试图减轻这些威胁并有助于及时检测。这项工作提出了一种可解释和解释的混合性入侵检测系统,它利用人工智能方法来实现更好,更持久的安全性。该系统将专家的书面规则和动态知识与决策树算法连续生成,因为从网络活动中出现了新的证据。
translated by 谷歌翻译
We present Azimuth, an open-source and easy-to-use tool to perform error analysis for text classification. Compared to other stages of the ML development cycle, such as model training and hyper-parameter tuning, the process and tooling for the error analysis stage are less mature. However, this stage is critical for the development of reliable and trustworthy AI systems. To make error analysis more systematic, we propose an approach comprising dataset analysis and model quality assessment, which Azimuth facilitates. We aim to help AI practitioners discover and address areas where the model does not generalize by leveraging and integrating a range of ML techniques, such as saliency maps, similarity, uncertainty, and behavioral analyses, all in one tool. Our code and documentation are available at github.com/servicenow/azimuth.
translated by 谷歌翻译
底面图像中的自动化视盘(OD)和光杯(OC)分割与有效测量垂直杯盘比率(VCDR)是一种在眼科中常用的生物标志物,以确定胶状神经神经病变的程度。通常,这是使用粗到1的深度学习算法来解决的,其中第一阶段近似于OD,第二阶段使用该区域的作物来预测OD/OC掩码。尽管这种方法广泛应用于文献中,但尚无研究来分析其对结果的真正贡献。在本文中,我们介绍了使用5个公共数据库的不同粗到精细设计的全面分析,包括从标准分割的角度以及估算青光眼评估的VCDR。我们的分析表明,这些算法不一定超过标准的多级单阶段模型,尤其是当这些算法是从足够大而多样化的训练集中学习的。此外,我们注意到粗糙阶段比精细的OD分割结果更好,并且在第二阶段提供OD监督对于确保准确的OC掩码至关重要。此外,在多数据集设置上训练的单阶段和两阶段模型都表现出对成对的结果,甚至比其他最先进的替代方案更好,同时排名第一的OD/OC分段。最后,我们评估了VCDR预测的模型与Airogs图像子集中的六个眼科医生相比,以在观察者间可变性的背景下理解它们。我们注意到,即使从单阶段和粗至细节模型中恢复的VCDR估计值也可以获得良好的青光眼检测结果,即使它们与专家的手动测量不高度相关。
translated by 谷歌翻译
使用机器学习算法从未标记的文本中提取知识可能很复杂。文档分类和信息检索是两个应用程序,可以从无监督的学习(例如文本聚类和主题建模)中受益,包括探索性数据分析。但是,无监督的学习范式提出了可重复性问题。初始化可能会导致可变性,具体取决于机器学习算法。此外,关于群集几何形状,扭曲可能会产生误导。在原因中,异常值和异常的存在可能是决定因素。尽管初始化和异常问题与文本群集和主题建模相关,但作者并未找到对它们的深入分析。这项调查提供了这些亚地区的系统文献综述(2011-2022),并提出了共同的术语,因为类似的程序具有不同的术语。作者描述了研究机会,趋势和开放问题。附录总结了与审查的作品直接或间接相关的文本矢量化,分解和聚类算法的理论背景。
translated by 谷歌翻译
机器学习(ML)的指数增长引起了极大的兴趣,以量化用户定义的信心水平的每个预测的不确定性。可靠的不确定性定量至关重要,是迈向增加对AI结果的信任的一步。在高风险决策中,它变得尤为重要,在这种决策中,真正的输出必须在置信度范围内具有很高的可能性。共形预测(CP)是一个无分布的不确定性定量框架,可适用于任何黑框模型,并产生预测间隔(PI),这些预测间隔(PIS)在轻度的交换性假设下有效。 CP型方法由于易于实施和计算便宜而变得越来越流行;但是,交换性假设立即排除时间序列预测。尽管最近的论文解决了协变量的转变,但对于一般时间序列预测生产H-Step提前有效PI的问题还不足。为了实现这样的目标,我们提出了一种称为AENBMIMOCQR的新方法(自适应集合批量多输入多输出保形的分数回归),该方法会产生渐近有效的PIS,适合异质驱动时间序列。我们将提出的方法与NN5预测竞争数据集中的最新竞争方法进行比较。所有用于复制实验的代码和数据都可以使用
translated by 谷歌翻译
共形分位回归是一种继承保形预测和分数回归的优势的程序。也就是说,我们使用分位数回归来估计真正的条件分位数,然后在校准集中应用一个共形步骤以确保边缘覆盖率。通过这种方式,我们获得了解释异质性的自适应预测间隔。然而,如(Romano等,2019)所述,上述形式缺乏适应性。为了克服这一限制,我们建议在估计有条件的分位数后使用分位数回归后应用单个共形步骤,而是建议将解释变量通过优化的k均值加权的解释变量聚集,并应用k的共形步骤。为了证明此改进的版本优于共形分位数回归的经典版本,并且更适合异方差,我们可以广泛比较开放数据集中两者的预测间隔。
translated by 谷歌翻译
电力是一种波动的电源,需要短期和长期的精力计划和资源管理。更具体地说,在短期,准确的即时能源消耗中,预测极大地提高了建筑物的效率,为采用可再生能源提供了新的途径。在这方面,数据驱动的方法,即基于机器学习的方法,开始优先于更传统的方法,因为它们不仅提供了更简化的部署方式,而且还提供了最新的结果。从这个意义上讲,这项工作应用和比较了几种深度学习算法,LSTM,CNN,CNN-LSTM和TCN的性能,在制造业内的一个真实测试中。实验结果表明,TCN是预测短期即时能源消耗的最可靠方法。
translated by 谷歌翻译
电感保串预测(ICP)是一组无分布和模型的不可分割算法,该算法旨在以用户定义的置信度,并具有覆盖范围保证。与其具有\ textIt {点预测},即在回归的情况下或多类分类中的单个类中的实际数字,而是使用ICP输出校准的模型分别为间隔或一组类。 ICP在高风险设置中特别重要,我们希望真正的输出属于具有高概率的预测集。例如,分类模型可能会输出给定磁共振图像患者没有潜在疾病的磁共振图像。但是,该模型输出基于最可能的类别,第二个最有可能的类可能表明患者患有15 \%的脑肿瘤或其他严重疾病的机会,因此应进行进一步的检查。因此,使用ICP更具信息性,我们认为这应该是产生预测的标准方式。本文是动手介绍,这意味着我们将在介绍该理论时提供示例。
translated by 谷歌翻译
这项工作探讨了物理驱动的机器学习技术运算符推理(IMIPF),以预测混乱的动力系统状态。 OPINF提供了一种非侵入性方法来推断缩小空间中多项式操作员的近似值,而无需访问离散模型中出现的完整订单操作员。物理系统的数据集是使用常规数值求解器生成的,然后通过主成分分析(PCA)投影到低维空间。在潜在空间中,设置了一个最小二乘问题以适合二次多项式操作员,该操作员随后在时间整合方案中使用,以便在同一空间中产生外推。解决后,将对逆PCA操作进行重建原始空间中的外推。通过标准化的根平方误差(NRMSE)度量评估了OPINF预测的质量,从中计算有效的预测时间(VPT)。考虑混乱系统Lorenz 96和Kuramoto-Sivashinsky方程的数值实验显示,具有VPT范围的OPINF降低订单模型的有希望的预测能力,这些模型均超过了最先进的机器学习方法,例如返回和储层计算循环新的Neural网络[1 ],以及马尔可夫神经操作员[2]。
translated by 谷歌翻译